141 research outputs found

    Computerization of African languages-French dictionaries

    Get PDF
    This paper relates work done during the DiLAF project. It consists in converting 5 bilingual African language-French dictionaries originally in Word format into XML following the LMF model. The languages processed are Bambara, Hausa, Kanuri, Tamajaq and Songhai-zarma, still considered as under-resourced languages concerning Natural Language Processing tools. Once converted, the dictionaries are available online on the Jibiki platform for lookup and modification. The DiLAF project is first presented. A description of each dictionary follows. Then, the conversion methodology from .doc format to XML files is presented. A specific point on the usage of Unicode follows. Then, each step of the conversion into XML and LMF is detailed. The last part presents the Jibiki lexical resources management platform used for the project.Comment: 8 page

    Papillon project: Retrospective and Perspectives.

    Get PDF
    International audienceThis paper describes the first five years of life of the Papillon project with four main phases: the birth with the motivations of such a project; the extension with the decision to build a multilingual pivot dictionary; the implementation with the realization of "Jibiki", a generic dictionary management platform and the population with the use of semantic vectors for linking entries and an ongoing project: word games, for creating specific lexical information

    De l'ordre dans les dictionnaires au GETA

    No full text
    Au fil des discussions, il apparaît clairement que le GETA a besoin de mettre un peu d'ordre dans ses dictionnaires. Il faut rassembler tous les dictionnaires UNL, récupérer les dictionnaires Ariane, reprendre le stock de dictionnaires de Haï. Pour l'instant, les dictionnaires sont éparpillés tant et si bien que l'on ne peut pas vraiment faire un inventaire des ressources

    Accès unique à des dictionnaires hétérogènes

    No full text
    International audienceNotre laboratoire utilise pour ses recherches plusieurs ressources lexicales hétérogènes_: dictionnaires monolingues, bilingues ou bases lexicales multilingues. Notre but est d'accéder à des ressources hétérogènes à l'aide d'une seule interface. Cette interface doit être accessible au plus grand nombre d'utilisateurs. Notre contrainte est de ne pas modifier les fichiers source et d'ajouter une ressource au système avec un minimum de développement. Le système lui-même doit limiter les développements tout en proposant un maximum de fonctionnalités. Nous présenterons d'abord les ressources que nous avons utilisées pour notre expérience. Celles-ci ne sont pas compilées, les fichiers texte sont utilisés tels quels. Nous exposerons ensuite le système que nous avons élaboré pour répondre à notre problème. Ce système est accessible par la Toile. Il propose quelques fonctionalités intéressantes†: analyse morphologique de l'entrée, recherche d'une entrée à l'aide d'expressions régulières, renvois grâce à des liens hypertexte, conjugueur pour les verbes. Nous ferons ensuite une comparaison avec d'autres approches. Enfin, nous concluerons sur les avantages d'un tel système, qui est utilisé quotidiennement par de nombreux utilisateurs sur un serveur interne. La simplicité de cette solution nous a permis de développer un autre serveur accessible au public. Nous terminerons par les extensions que nous pourrions envisager

    Back to the roots: building a French-Japanese dictionary

    Get PDF
    International audienceAfter four years of life, the Papillon project is dying. In this paper, I summarise the current situation and then give my opinion of the reasons why we did not achieve what we planned four years ago. Then, taking these reasons as a starting point I propose to go back to the original aim of the project, i.e. to build an online bilingual French-Japanese dictionary free of rights. I describe the macro and microstructures, the new methodology and the existing data we could (re)use in order to build at once a bidirectional bilingual dictionary with links that can be directly inte- grated afterwards in a multilingual pivot database. This (sub)project serves several goals: first, to build the dictionary itself of course, second, to motivate and federate contributors around a project and a platform, third, to advertise the Papillon project, fourth, to test the platform and the methodologies in real conditions and fifth, to build linked data that can be reused in a more long term for the Papillon Multilingual database. Of course, I cannot achieve this alone, so I am looking for support from your part

    Papillon Lexical Database Project: Monolingual Dictionaries and Interlingual Links

    No full text
    International audienceThis paper presents a new research and development project called Papillon. It started as a French-Japanese cooperation between laboratories GETA/CLIPS (Grenoble, France) and NII (Tokyo, Japan). Its goal is to build a multilingual lexical database and to extract from it digital bilingual dictionaries. The database is built with monolingual dictionaries, one for each language of the database, linked to an interlingual dictionary. The pivot architecture of the database is based on Gilles Sérasset's Ph.D. thesis. The structure of the monolingual dictionaries is based on the lexical work done by Igor Melc'uk and Alain Polguère. From the lexical database, it is planned to derive user customized bilingual dictionaries in multiple target formats. It will be possible to generate human usage dictionaries as well as specialized dictionaries for machine translation software. These dictionaries will be available under the terms of an open source license. This project, initiated by some computational linguists, aims at being useful and open to all those who are interested in Japanese and French. It is also opened to any other language. Moreover, the pivot architecture of the database will facilitate the addition of new languages and save translation efforts

    Conception, implémentation et indexation de BaLeM, une base lexicale multilingue

    No full text
    International audienceEn Traitement Automatique des Langues Naturelles (TALN), le problème de la gestion des ressources linguistiques est crucial. Le volume des données manipulées, leur grande variété et la vitesse de traduction sont autant de paramètres qui font de la construction de dictionnaires un élément clé de tout système de TALN. La dispersion des outils sur des plates-formes hétérogènes dont les lexicographes ont besoin lors de l'indexation et le coût élevé qui en résulte freinent les avancées dans ce domaine. Beaucoup d'efforts ont été faits pour essayer de créer une plate-forme unique qui réduirait les coûts de production des dictionnaires mais peu de résultats ont été obtenus. D'autre part, pour le projet Universal Networking Language, nous devons faire face à des besoins très importants. À court terme, des outils d'indexation pour construire les dictionnaires seront nécessaires au projet. Nous pensons qu'il est possible de résoudre les problèmes de dispersion des outils en proposant une application générique multi-outils. Nous pourrons l'expérimenter dans le cadre du projet UNL

    Nouvelle architecture pour le serveur UNL

    No full text
    Pour répondre aux nouvelles exigences du projet UNL, il fallait implémenter un serveur de déconversion accessible par Common Gateway Interface (CGI). Le déconvertisseur UNL programmé par l'équipe de l'IAS pouvait alors utiliser directement cette CGI en indiquant son adresse pour la déconversion du français. N'ayant eu aucune indication préalable en ce qui concernait l'architecture de notre serveur, nous avions implanté une interface par courrier électronique. Nous avions donc ajouté un script CGI qui simplement transformait la requête en courrier électronique et l'envoyait à notre serveur. Cette solution présentait l'avantage de ne pas modifier la partie existante de notre serveur. Par contre, cette architecture présentait quelques défauts. Il était finalement impossible d'utiliser la CGI pour interroger le serveur. Cette CGI devait gérer une boite aux lettres de communication avec notre serveur de déconversion. Elle manquait de robustesse et de stabilité. Elle ne pouvait pas par exemple traiter plus de 99 requêtes simultanément. D'autre part, la communication par courrier électronique ralentissait considérablement le temps global de déconversion. Lors d'une recherche sur la Toile, j'ai trouvé un protocole d'interrogation de dictionnaires fonctionnant par TELNET. Le Dictionary Server Protocol (DICT) est une transaction TCP basée sur un protocole de requête/réponse qui permet à un client d'accéder à des entrées de dictionnaires. La RFC 2229 le décrivant est disponible à l'adresse suivante : http://www.dict.org/rfc2229.txt. Nous avions donc pensé modifier l'architecture de notre serveur de façon à ce que la conmmunication entre la CGI et le serveur ne se fasse plus par courrier électronique mais par TELNET/DICT

    Dictionary Building with the Jibiki Platform: Software Demonstration

    Get PDF
    International audienceThe Jibiki platform is an online generic environment for writing and querying all kinds of dictionaries: terminological glossaries, bilingual dictionaries, multilingual lexical databases, etc. It has been developed mainly by Mathieu Mangeot (Université de Savoie, France) and Gilles Sérasset (Université de Grenoble 1, France), thanks to research driven by the GETA team of the CLIPS laboratory in Grenoble, France. The platform allows one to lookup all the dictionaries available on the server and to display the results in the same window. The advanced query interface offers a combination of multiple search criteria. The writing of the entries is done directly online on the platform via a web browser. The writing interface is generated automatically from the description of the structure of the entries (an XML schema), thus allowing the edition of (almost) any type of dictionary entry

    MotĂ Mot project: conversion of a French-Khmer published dictionary for building a multilingual lexical system

    No full text
    8 pagesInternational audienceEconomic issues related to the information processing techniques are very important. The development of such technologies is a major asset for developing countries like Cambodia and Laos, and emerging ones like Vietnam, Malaysia and Thailand. The MotAMot project aims to computerize an under-resourced language: Khmer, spoken mainly in Cambodia. The main goal of the project is the development of a multilingual lexical system targeted for Khmer. The macrostructure is a pivot one with each word sense of each language linked to a pivot axi. The microstructure comes from a simplification of the explanatory and combinatory dictionary. The lexical system has been initialized with data coming mainly from the conversion of the French-Khmer bilingual dictionary of Denis Richer from Word to XML format. The French part was completed with pronunciation and parts-of-speech coming from the FeM French-english-Malay dictionary. The Khmer headwords noted in IPA in the Richer dictionary were converted to Khmer writing with OpenFST, a finite state transducer tool. The resulting resource is available online for lookup, editing, download and remote programming via a REST API on a Jibiki platform
    • …
    corecore